学习到级别是一种广泛用于信息检索的机器学习技术,最近已应用于基于配体的虚拟筛查问题,以加速新药开发的早期阶段。排名预测模型根据序数关系学习,使其适合从各种环境中集成测定数据。现有的化合物筛选中排名预测的研究通常使用了一种名为RankSVM的学习对方法。但是,尚未将它们与梯度提升决策树(GBDT)基于梯度的学习对级别的方法进行比较或验证,这些方法最近越来越受欢迎。此外,尽管称为归一化折扣累积增益(NDCG)的排名指标被广泛用于信息检索,但它仅确定预测是否比其他模型的预测更好。换句话说,NDCG无法识别何时预测模型比随机结果差。然而,NDCG仍用于使用学习级学习的化合物筛选的性能评估。这项研究使用了具有排名损失函数的GBDT模型,称为Lambdarank和Lambdaloss,用于基于配体的虚拟筛选。使用回归将结果与现有的RankSVM方法和GBDT模型进行比较。我们还提出了一个新的排名指标,标准化的富集折扣累积增益(NEDCG),旨在正确评估排名预测的好处。结果表明,使用GBDT和RankSVM在不同数据集上的GBDT模型优于现有的回归方法。此外,NEDCG表明,回归预测与多户多户数据集中的随机预测相当,这证明了其对更直接评估复合筛选性能的有用性。
translated by 谷歌翻译
受限的玻尔兹曼机器(RBMS)提供了一种用于无监督的机器学习的多功能体系结构,原则上可以以任意准确性近似任何目标概率分布。但是,RBM模型通常由于其计算复杂性而无法直接访问,并调用了Markov-Chain采样以分析学习概率分布。因此,对于培训和最终应用,希望拥有既准确又有效的采样器。我们强调,这两个目标通常相互竞争,无法同时实现。更具体地说,我们确定并定量地表征了RBM学习的三个制度:独立学习,精度提高而不会失去效率;相关学习,较高的精度需要较低的效率;和退化,精度和效率都不再改善甚至恶化。这些发现基于数值实验和启发式论点。
translated by 谷歌翻译